Analyses des positions polymorphes

Toutes les positions

Le graphique suivant représente toutes les positions par séquence auxquelles phred détecte un pic secondaire. La couleur représente la base au pic secondaire. Les traits verticaux représentent les positions de SNP introduites. Le trait horizontal démarque les donneurs STRONG (en bas) des WEAK.

Certaines séquences sont extrêmement bruitées. Le graphique suivant représente le nombre de positions polymorphe par plasmide.

J’ai utilisé le seuil de 80 positions polymorphes pour discriminer les séquences propres des séquences “sales” (cutoff en rouge). Sans ces même séquences :

Si on ne regarde que les positions de SNP

On voit plusieurs choses :

  1. il y a nettement plus de positions polymorphes dans nos marqueurs avec les donneurs WEAK qu’avec les donneurs STRONG (184 contre 26),

  1. le nombre de positions polymorphes par séquence est assez variable.

  1. les pics secondaires ne sont pas nécessairement spécifiques de nos marqueurs :

  1. mais la fréquence de pic secondaire est plus élevée dans les sites marqueurs que dans les sites normaux.

J’ai ensuite voulu regarder la répartition par séquence de ces seconds pics. La base majoritaire correspond-elle plus souvent à la base donneuse, à la base receveuse, ou aucun des deux ?

Le graphique suivant représente donc toutes les positions où phred détecte un pic secondaire, encore une fois. La couleur du point représente les différents cas de figure : rouge pour les cooccurences SS, bleu pour les cooccurences SW (pic majoritaire S et pic secondaire W), vert pour l’inverse et violet pour les cas WW.

Si on compte le nombre de cooccurences différentes :

Il y a autant de coocurrences WS (donneur / sauvage) quand le donneur est weak que de cooccurrences SW (donneur / sauvage) quand le donneur est strong. Par contre, il y a plus de cooccurrences SW (sauvage / donneur) quand le donneur est weak que de cooccurences WS (sauvage / donneur) quand le donneur est strong. Il y a également un nombre relativement élevé de cooccurences SS et WW.

Si on ne regarde que les positions de SNP pour les donneurs WEAK.

Idem, seulement les SNP pour les donneurs STRONG.

Certains reads ne sont pas homogènes : tantôt la base donneuse est majoritaire, tantôt la base receveuse. Le graphique suivant est un alignement de toutes les positions de SNP pour les donneurs WEAK, classés par longueur de trace de conversion.

Idem pour les transformants strong.

On en a conclu plusieurs choses :

  1. il semble que les couleurs associées soit plutôt bleu avec jaune et violet avec vert. Autrement dit les pics majoritaires dans la trace de conversion sont plutôt weak chez les donneurs weak, et les pics majoritaires en dehors de la trace correspondent à la base strong.

  2. Dans l’hypothèse où ce seraient des contaminations : on dispose du plan de plaque, on peut donc essayer de tester l’association entre les contaminations qu’on observe et les séquences présentes dans les transformants des autres puits. Une sorte de démineur des conta. La méthode n’est encore pas établie.

  3. On retrouve toujours les bases strong (en vert) au milieu des séquences de weak (en jaune). Ça pourrait être dû à des traces de conversions complexes. En tout les cas ces mutations ne sont pas associées à des seconds pics, pour 4 des 6 cas que Laurent avait détecté auparavant.

  4. Concernant le problème des contaminations : on s’est dit qu’il pouvait subsister l’ADN du plasmide, adsorbé sur la bactérie transformante et qu’on isole sur le milieu. La bactérie isolée, en cours de croissance, pourrait utiliser cet ADN pour un deuxième évènement de recombinaison. Si au lieu d’un évènement de recombinaison, on a plusieurs évènements, qui utilisent cet ADN résiduel comme matrice, ça pourrait expliquer les profils de polymorphismes qu’on observe, qui semblent associé (globalement) spécifiquement à nos SNP. On veut donc traiter les clones, avant d’étaler, par de la DNAse, pour éliminer les traces de plasmides résiduels. # distribution de la longueur de trace de conversion

On ne voit pas une variation affolante entre la longueur des traces de conversions issues des donneurs weak et strong. # Variations des scores de confiance

Chaque fois qu’un pic secondaire est détecté, un ratio d’aire est calculé entre le pic primaire et le pic secondaire (ratio = 1 => pics équivalents). J’ai voulu voir la façon dont ces ratios étaient distribués sur les séquences. On peut regarder cette variabilité intra et inter-séquence.

Variabilité intra séquence

Le graphique suivant représente la distribution des scores de confiance par read. La couleur et la taille des points correspondent au ratio des pics (secondaire / primaire, toujours < 1).

Il semble que les scores varient assez peu au sein d’une même séquence. C’est ce que le graphique suivant cherche à montrer.

Hormis quelques points, les lignes se croisent assez peu, d’une position à l’autre. Le graphique suivant représente la mediane et la déviation absolue à la médiane des ratios de pic, globalement assez ressérés autour de 0.15. 0.2 est un score assez conservateur, il correspond clairement à un pic secondaire, lorsqu’on le vérifie visuellement sur les spectrogrammes.

Type de transitions

J’ai enfin voulu regarder quelles types de transitions étaient favorisées selon les donneurs.

Biblio

Séquençage :

Séquençage des ancres

  • but : déterminer si les taux de néomutation anormalement élevés qu’on observe dans certaines séquences sont bien conversion-tract dépendant, comme observé à priori.

  • résultats : séquences dégueulasses.

Séquençage des produits de recombinaison des clones avec polymorphismes

Analyse de l’association

Le but est de faire un plan de plaque pour étudier l’association entre le nombre de position polymorphe et la position dans la plaque.